Order Statistics
- or
- 순서통계량
# Tag:
Order Statistics
어떠한 iid한 분포의 여러 개의 확률 변수들을 값에 맞추어 정렬하여 만든 분포.
정렬 자체가 몇 번째 값이 X 이상이다 라는 정보를 주는 것이므로, 독립적인 데이터들이 서로 종속적이게 바뀌게 된다.
즉, iid한 가 개 존재한다고 하면
- 중앙값: 이 홀수일 경우, 중앙값은 .
- 특히, discrete Random Variable의 경우 동일한 값에 대해서 순서를 매기기 어렵다. 따라서 보통 완전히 같은 값이 없는 continious한 데이터에 대해서 다룬다. (Stritc Ordering: )
Distribution
각 data point가 어떤 분포를 따르는 지는 모르지만, 이에 대한 PDF와 CDF를 각각 , 라 하자.
순서 통계량의 PDF를 구하는 방법은 번째 이후의 데이터가 특정 값보다 작을 확률들의 총합이라 할 수 있다.
CDF
- 번째 데이터의 값이 50보다 아래여야 된다고 하면, ~ 번째 데이터들이 각각 50보다 아래인 경우를 모두 합산해야 한다. 값 순서대로 정렬하므로, 각 데이터 중 하나만이라도 50 이하라면 번째 데이터는 당연히 50 이하가 된다.
- 50보다 아래인 것을
성공이라고 정의한다면, 이는 이항 분포로 바라볼 수 도 있다. - 즉, 부터 까지의 데이터가
50보다 작을 확률=이항 분포 확률을 모두 더하면 된다.
즉, 50보다 작을 확률을 이라고 하면 순서 통계량의 General CDF는
PDF
CDF에 미분을 취해도 되지만, 계산이 복잡해진다.
- 하나의 데이터가 아주 좁은 구간()에 있고,
- 정확히 개의 데이터가 그 구간 왼쪽에
- 남은 데이터 개가 구간 오른쪽에
있을 확률을 계산하면 PDF를 구할 수 있다.
- 개 중 하나의 데이터를 취해서 ⇒ (개의 선택지), 그 구간에 놓을 확률은 ⇒
- 남은 개의 데이터 중 개의 데이터를 취해서 ⇒ , 그 구간에 놓을 확률은 값보다 작기만 하면 되므로 이고, 개의 독립적인 데이터이므로 ⇒
- 남은 개의 데이터가 의 오른쪽, 보다 클 확률이므로 ⇒
이를 모두 곱하면 PDF는
For The Uniform Distribution
가 각각 을 따르는 iid한 확률 변수라고 하면, 그 순서 통계량 분포는 Beta Distribution가 된다.
Uniform Distribution(0,1)이므로 CDF와 PDF는 각각
따라서 순서 통계량은
이는 베타 분포
- ⇒
- ⇒ 이라고 보면 동일해진다.